Más allá de la penalización: detección de fuera de distribución basada en difusión y regularización selectiva en el aprendizaje por refuerzo fuera de línea
Aprende sobre detección OOD con difusión y regularización selectiva en RL offline. Un método innovador que va más allá de la penalización tradicional para mejorar la robustez y seguridad del agente.